from pyspark.sql import SparkSession

spark = SparkSession.builder.master(master="local").appName("test").getOrCreate()

path = "E:\\Python\\pyspark_demo01\\pyspark_data\\file.csv"  # 文件存储的路径
schema = None  # 结构
sep = ","  # 分割符
header = True
csvDF = spark.read.csv(path=path, schema=schema, sep=sep, header=header)
# csvDF.show()  # 查看csv文件

print("查看csv文件所有栏位：{}".format(csvDF.columns))

print("查看所有栏位统计数：count,mean，stddev,min,max")
# csvDF.describe().show()

print("只查看评分的统计数")
# csvDF.describe("评分").show()
# csvDF.describe("票房/万").show()

print("查看csv文件各栏位的数据类型及接哦股")
csvDF.printSchema()

print("查看指定列的数据")
csvDF.select("电影名称", "评分").show()

# 查看评分 大于等于5的电影数
count_01= csvDF.filter(csvDF['评分']>=5).select('电影名称').distinct().count()
# count_02= csvDF.filter(csvDF['评分']>=5).select('电影名称',"评分").show()  # 有问题
print("查看评分 大于等于5的电影数:{}".format(count_01))

csvDF.crosstab('电影名称', '评分').show()  #查看电影在评分的分布位置

